大语言模型(LLM)的推理能力是至关重要的能力,尤其是在复杂的决策任务中。显示LLMS推理能力的一项重要任务是代码时间复杂性预测,其中包含各种复杂因素,例如变量和条件循环的输入范围。由于数据,语言限制有限和标签不足,因此无法提供严格评估的基准。他们不考虑基于Int-of表示的时间复杂性,而仅评估预测是否属于同一类,缺乏对正确预测的距离的衡量标准。为了解决这些规定,我们介绍了CodeComplex,这是第一个强大而广泛的数据集,旨在评估LLMS在预测代码时间复杂性方面的推理能力。CodeComplex构成了4,900个Java代码和同等数量的Python代码,克服语言和标记约束,并通过算法专家面板的输入特性仔细注释了复杂性标签。此外,我们提出了专门的评估指标,以推理复杂性预测任务,从而对LLMS的推理能力进行更精确,更可靠的评估。我们公开发布数据集和基线模型1,以促进相关的(NLP,SE和PL)通信,以利用和参与这项研究。
![arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第1页](/bimg/c/cd8fe7455c9c97afbe0cf1fde1c44d3c1e9628e0.webp)
![arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第2页](/bimg/0/0c1a75f2d65f3b254f47b08d16e0ad1906c79f84.webp)
![arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第3页](/bimg/1/1c0c2c90b10ad84f2eb8372368a67ffd741abf2a.webp)
![arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第4页](/bimg/b/b9ac00649cc5b0b984ae929cbe2c9bcc103e5617.webp)
![arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第5页](/bimg/1/1152bc525a425338b9080bd7f5f936cbbe9a9231.webp)
